AI
인공지능기초_02_판단 모델과 학습 기법
작성자 : Heehyeon Yoo|2025-12-01
# AI# DiscriminativeModel# SupervisedLearning# UnsupervisedLearning# ReinforcementLearning
1. 개요
인공지능 모델은 크게 판단 모델과 생성 모델로 나눌 수 있다. 여기서는 입력을 보고 분류하거나 값을 예측하는 판단 모델과, 그 판단 모델을 학습시키는 방식에 초점을 맞춘다.
판단 모델은 입력된 데이터가 어떤 클래스에 속하는지 분류하거나, 특정 값을 예측하는 모델이다. 예를 들어 사진을 보고 고양이인지 판단하는 식이다. 이런 모델은 대량의 데이터셋에서 패턴을 학습한 뒤, 그 패턴을 새로운 입력에 적용해 추론한다.
2. 학습 방법(Learning Methods)
판단 모델을 학습시키는 방식은 보통 세 가지로 나눠서 본다.
2.1. 지도학습(Supervised Learning)
지도학습은 문제 데이터와 정답 레이블을 함께 주고 학습시키는 방식이다. 가장 널리 쓰이는 방법이기도 하다.
모델은 데이터와 정답 사이의 관계를 보고 패턴을 익힌다. 예를 들어 강아지 사진과 "강아지"라는 태그를 함께 학습하면, 모델은 강아지의 시각적 특징을 점점 구분하게 된다.
주요 사례는 이렇다.
- 이상 탐지: 공장 불량품 선별, 금융 이상 거래 탐지
- 이미지·영상 인식: 얼굴 인식, 자율주행의 객체 식별과 회피
- 예측: 주가 예측, 경제 지표 전망
2.2. 비지도학습(Unsupervised Learning)
비지도학습은 정답 없이 데이터만 주고, 그 안에 있는 구조나 패턴을 찾게 만드는 방식이다.
대표적인 작업은 클러스터링이다. 비슷한 특징을 가진 데이터끼리 묶어서 군집을 만든다.
주요 사례는 이렇다.
- 추천 시스템: 넷플릭스, 유튜브, 스포티파이 같은 서비스의 콘텐츠 추천
- 타겟 마케팅: 구매 이력이나 행동 패턴이 비슷한 고객을 묶어 맞춤형 광고를 제공하는 방식
2.3. 강화학습(Reinforcement Learning)
강화학습은 정적인 데이터셋보다 환경과의 상호작용을 통해 학습하는 방식이다.
구성 요소는 세 가지로 보는 게 편하다.
- 에이전트: 행동을 선택하는 주체
- 환경: 게임, 바둑판, 도로처럼 에이전트가 놓인 상황
- 보상과 처벌: 행동 결과에 따라 점수를 주거나 깎는 기준
에이전트는 보상을 최대화하는 방향으로 행동 정책을 스스로 조정한다. 스키너의 상자 실험과 비슷한 시행착오 구조라고 보면 된다.
주요 사례는 이렇다.
- 알파고: 승리라는 보상을 목표로 수많은 대국을 시뮬레이션하며 학습
- 게임 AI: 벽돌 깨기 같은 게임에서 점수를 최대화하는 전략 학습
3. 요약 및 비교
세 가지 학습 방식은 목적과 입력 조건이 다르다. 한눈에 보면 아래와 같다.
| 구분 | 지도학습 | 비지도학습 | 강화학습 |
|---|---|---|---|
| 핵심 | 정답 레이블이 있음 | 정답 없이 구조를 찾음 | 보상 기반 시행착오 |
| 목적 | 분류, 회귀 | 군집화, 차원 축소 | 최적 행동 결정 |
| 예시 | 스팸 메일 필터, 자율주행 | 고객 세분화, 추천 시스템 | 게임 플레이, 로봇 제어 |